智能论文笔记

On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning

Andrew Cohen , Ervin Teng , Vincent-Pierre Berges , Ruo-Ping Dong , Hunter Henry , Marwan Mattar , Alexander Zook , Sujoy Ganguly

分类：机器学习 | 人工智能

2021-11-10

在合作多智能体增强学习（Marl）中的代理商的创造和破坏是一个批判性的研究领域。当前的Marl算法通常认为，在整个实验中，组内的代理数量仍然是固定的。但是，在许多实际问题中，代理人可以在队友之前终止。这次早期终止问题呈现出挑战：终止的代理人必须从本集团的成功或失败中学习，这是超出其自身存在的成败。我们指代薪资奖励的传播价值作为遣返代理商作为追索的奖励作为追索权。当前的MARL方法通过将这些药剂放在吸收状态下，直到整组试剂达到终止条件，通过将这些药剂置于终止状态来处理该问题。虽然吸收状态使现有的算法和API能够在没有修改的情况下处理终止的代理，但存在实际培训效率和资源使用问题。在这项工作中，我们首先表明样本复杂性随着系统监督学习任务中的吸收状态的数量而增加，同时对变量尺寸输入更加强大。然后，我们为现有的最先进的MARL算法提出了一种新颖的架构，它使用注意而不是具有吸收状态的完全连接的层。最后，我们展示了这一新颖架构在剧集中创建或销毁的任务中的标准架构显着优于标准架构以及标准的多代理协调任务。

translated by 谷歌翻译

在过去的十年中，数字双胞胎的概念在受欢迎程度上爆发了，但围绕其多个定义，其新颖性作为新技术的新颖性以及其实际适用性仍然存在，尽管进行了许多评论，调查和新闻稿，但其实际适用性仍然存在。探索了数字双胞胎一词的历史，以及其在产品生命周期管理，资产维护和设备车队管理，运营和计划领域的初始背景。还基于七个基本要素提供了一个最小可行的框架来利用数字双胞胎的定义。还概述了采用DT方法的DT应用程序和行业的简短旅行。预测维护领域突出了数字双胞胎框架的应用，并使用基于机器学习和基于物理的建模的扩展。采用机器学习和基于物理的建模的组合形成混合数字双胞胎框架，可以协同减轻隔离使用时每种方法的缺点。还讨论了实践实施数字双胞胎模型的关键挑战。随着数字双技术的快速增长及其成熟，预计将实现实质性增强工具和解决方案的巨大希望，以实现智能设备的智能维护。

translated by 谷歌翻译